90 research outputs found

    A Global approach to vision-based pedestrian detection for advanced driver assistance systems

    Get PDF
    Descripció del recurs: el 02 de novembre de 2010A començaments del segle XXI, els accidents de tràfic han esdevingut un greu problema no només pels països desenvolupats sino també pels emergents. Com en altres àrees científiques on la Intel·ligència Artificial s'ha transformat en un actor principal, els sistemes avançats d'assistència al conductor, i concretament els sistemes de protecció de vianants basats en Visió per Computador, han esdevingut una important línia d'investigació adressada a millorar la seguretat dels vianants. Tanmateix, el repte és d'una complexitat considerable donada la variabilitat dels humans (p.e., roba, mida, relació d'aspecte, forma, etc.), la naturalesa dinàmica dels sistemes d'abord i els entorns no estructurats en moviment que representen els escenaris urbans. A més, els requeriments de rendiment son rigorosos en termes de cost computacional i d'indexos de detecció. En aquesta tesi, en comptes de centrar-nos en millorar tasques específiques com sol ser freqüent a la literatura, presentem una aproximació global al problema. Aquesta visió global comença per la proposta d'una arquitectura genèrica pensada per a ser utilitzada com a marc tant per a la revisió de la literatura com per a organitzar les tècniques estudiades al llarg de la tesi. A continuació enfoquem la recerca en tasques com la segmentació dels objectes en primer pla, la classificació d'objectes i el refinament tot seguint una visió general i explorant aspectes que normalment no son analitzats. A l'hora de fer els experiments, també presentem una nova base de dades que consisteix en tres subconjunts, cadascun adressat a l'evaluació de les diferents tasques del sistema. Els resultats presentats en aquesta tesi no només finalitzen amb la proposta d'un sistema de detecció de vianants sino que van un pas més enllà indicant noves idees, formalitzant algoritmes proposats i ja existents, introduïnt noves tècniques i evaluant el seu rendiment, el qual esperem que aporti nous fonaments per a la futura investigació en aquesta àrea.At the beginning of the 21th century, traffic accidents have become a major problem not only for developed countries but also for emerging ones. As in other scientific areas in which Artificial Intelligence is becoming a key actor, advanced driver assistance systems, and concretely pedestrian protection systems based on Computer Vision, are becoming a strong topic of research aimed at improving the safety of pedestrians. However, the challenge is of considerable complexity due to the varying appearance of humans (e.g., clothes, size, aspect ratio, shape, etc.), the dynamic nature of on-board systems and the unstructured moving environments that urban scenarios represent. In addition, the required performance is demanding both in terms of computational time and detection rates. In this thesis, instead of focusing on improving specific tasks as it is frequent in the literature, we present a global approach to the problem. Such a global overview starts by the proposal of a generic architecture to be used as a framework both to review the literature and to organize the studied techniques along the thesis. We then focus the research on tasks such as foreground segmentation, object classification and refinement following a general viewpoint and exploring aspects that are not usually analyzed. In order to perform the experiments, we also present a novel pedestrian dataset that consists of three subsets, each one addressed to the evaluation of a different specific task in the system. The results presented in this thesis not only end with a proposal of a pedestrian detection system but also go one step beyond by pointing out new insights, formalizing existing and proposed algorithms, introducing new techniques and evaluating their performance, which we hope will provide new foundations for future research in the area

    Bridging Cross-Modal Alignment for OCR-Free Content Retrieval in Scanned Historical Documents

    Get PDF
    In this work, we address the limitations of current approaches to document retrieval by incorporating vision-based topic extraction. While previous methods have primarily focused on visual elements or relied on optical character recognition (OCR) for text extraction, we propose a paradigm shift by directly incorporating vision into the topic space. We demonstrate that recognizing all visual elements within a document is unnecessary for identifying its underlying topic. Visual cues such as icons, writing style, and font can serve as sufficient indicators. By leveraging ranking loss functions and convolutional neural networks (CNNs), we learn complex topological representations that mimic the behavior of text representations. Our approach aims to eliminate the need for OCR and its associated challenges, including efficiency, performance, data-hunger, and expensive annotation. Furthermore, we highlight the significance of incorporating vision in historical documentation, where visually antiquated documents contain valuable cues. Our research contributes to the understanding of topic extraction from a vision perspective and offers insights into annotation-cheap document retrieval system

    Polyp localization and segmentation in colonoscopy images by means of a model of appearance for polyps

    Get PDF
    El càncer de còlon és la quarta causa més comuna de mort per càncer en el món, havent al voltant de 143.460 nous casos el 2012, segons dades de l'American Cancer Society. La taxa de mortalitat d'aquest càncer depèn de l'etapa en què sigui detectat, decreixent des de taxes majors del 95% en les primeres etapes a taxes inferiors al 35% en les etapes quarta i cinquena, la qual cosa demostra la necessitat d'una exploració precoç del còlon. Durant l'exploració, el metge busca creixements adenomatosos, que es coneixen sota el nom de pòlips, per tal d'esbrinar el seu nivell de desenvolupament. Hi ha diverses tècniques per a l'exloració del còlon, però la colonoscòpia és considerada encara avui com estàndard de facto, encara que presenta alguns inconvenients com una elevada taxa de errors. La nostra contribució està enquadrada dins del camp de sistemes intel·ligents per a la colonoscòpia [13] i té com a objectiu el desenvolupament de mètodes de localització i segmentació de pòlips basant-se en models d'aparen¸ca. Definim la localització de pòlips com el mètode pel qual donada una imatge d'entrada es proporciona com a sortida una altra imatge on es assenyalen les àrees de la imatge on és més probable trobar un pòlip. Per altra banda, la segmentació té com a objectiu definir la regió concreta de la imatge on es troba el pòlip. Per tal de desenvolupar ambdós mètodes s'ha comen¸cat desenvolupant un model d'aparen¸ca per a pòlips, el qual defineix un pòlip com una estructura limitada per valls en la imatge de escala de gris. La novetat de la nostra contribució rau en el fet que incloem en el nostre model altres elements de l'escena endoluminal, com els reflexos especulars o els gots sanguinis, que demostren tenir un impacte en el rendiment global dels nostres mètodes i en elements derivats del procés de formació de la imatge com l'interlacing. Tenint això en compte, definim una imatge de profunditat de valls que integra la sortida del detector de valls amb un gradient morfològic, afegint-hi els altres elements de l'escena endoluminal. Per desenvolupar el nostre mètode de localització de pòlips capturem la informació de la imatge de profunditat de valls amb la finalitat de crear mapes d'energia. Per obtenir la segmentació del pòlip també fem servir aquests mapes de energia per guiar el procés. Els nostres mètodes arriben resultats prometedors tant en localització com a segmentació de pòlips. Per a validar la metodologia emprada, presentem un experiment que compara el nostre mètode amb observacions fetes per metges obtingudes mitjan ¸cant un dispositiu de eye-tracking. Els resultats mostren que el rendiment de la contribució d'aquesta Tesi és comparable a l'obtingut a partir de les observacions dels metges, la qual cosa indica el potencial de la nostra proposta en futurs sistemes intel·ligents de colonoscòpiaEl cáncer de colon es la cuarta causa más común de muerte por cáncer en el mundo, presentando alrededor de 143.460 nuevos casos en 2012, según datos estimados por la American Cancer Society. La tasa de mortalidad del cancer de colon depende de la etapa en que éste es detectado, decreciendo desde tasas mayores del 95% en las primeras etapas a tasas inferiores al 35% en las etapas cuarta y quinta, lo cual es muestra de la necesidad de una exploración temprana del colon. Durante la exploración el médico busca crecimientos adenomatosos que se conocen bajo el nombre de pólipos, con el fin de averiguar su nivel de desarrollo. Existen varias técnicas para la exloración del colon pero la colonoscopia está considerada aún hoy en d'ıa como estandar de facto, aunque presenta algunos inconvenientes como la tasa de fallos. Nuestra contribución, encuadrada dentro del campo de sistemas inteligentes para la colonoscopia, tiene como objetivo el desarrollo de métodos de localización y segmentación de pólipos basándose en un model de apariencia para los pólipos. Definimos localización de pólipos como el método por el cual dada una imagen de entrada se proporciona como salida donde se señalan las áreas de la imagen donde es más probable encontrar un pólipo. La segmentación de pólipos tiene como objetivo definir la región concreta de la imagen donde está el pólipo. Con el fin de desarrollar ambos métodos se ha comenzado desarrollando un modelo de apariencia para pólipos, el cual define un pólipo como una estructura limitada por valles en la imagen de escala de gris. Lo novedoso de nuestra contribución radica en el hecho de que incluimos en nuestro modelo otros elementos de la escena endoluminal tales como los reflejos especulares o los vasos sangu'ıneos que tienen un impacto en el rendimiento global de nuestros métodos as'ı como elementos derivados del proceso de formación de la imagen, como el interlacing. Teniendo esto en cuenta definimos nuestra imagen de profundidad de valles que integra la salida del detector de valles con el gradiente morfológico, añadiendo asimismo la presencia de los ya mencionados otros elementos de la escena endoluminal. Para desarrollar nuestro método de localización de pólipos acumulamos la información que la imagen de profundidad de valles proporciona con el fin de crear mapas de energ'ıa. Para obtener la segmentación del pólipo también usamos información de los mapas de energ'ıa para guiar el proceso. Nuestros métodos alcanzan resultados prometedores tanto en localización como en segmentación de pólipos. Con el fin de valdiar nuestros métodos presentamos también un experimento que compara nuestro método con las observaciones de los médicos, obtenidas mediante un dispositivo eye-tracker. Los resultados muestran que nuestros m'etodos son cercanos a las observaciones de los médicos, lo cual indica el potencial de los mismos de cara a ser incluidos en futuros sistemas inteligentes para la colonoscopia.Colorectal cancer is the fourth most common cause of cancer death worldwide, with about 143.460 new cases expected in 2012 by recent estimates of the American Cancer Society. Colon cancerís survival rate depends on the stage in which it is detected, decreasing from rates higher than 95% in the first stages to rates lower than 35% in stages IV and V, hence the necessity for a early colon screening. In this process physicians search for adenomatous growths known as polyps, in order to assess their degree of development. There are several screening techniques but colonoscopy is still nowadays the gold standard, although it has some drawbacks such as the miss rate. Our contribution, in the field of intelligent system for colonoscopy, aims at providing a polyp localization and a polyp segmentation system based on a model of appearance for polyps. In this sense we define polyp localization as a method which given an input image identifies which areas of the image are more likely to contain a polyp. Polyp segmentation aims at selecting the region of the image that contains a polyp. In order to develop both methods we have started by defining a model of appearance for polyps, which defines a polyp as enclosed by intensity valleys. The novelty of our contribution resides on the fact that we include in our model other elements from the endoluminal scene such as specular highlights and blood vessels, which have an impact on the performance of our methods and also other elements that appear as a result of image formation, such as interlacing. Considering this we define our novel Depth of Valleys image which integrates valley information with the output of the morphological gradient and also takes into account the presence of the before mentioned elements of the endoluminal scene. In order to develop our polyp localization method we accumulate the information that the Depth of Valleys image provides in order to generate accumulation energy maps. In order to obtain polyp segmentation we also use information from the energy maps to guide the process. Our methods achieve promising results in polyp localization and segmentation. In order to validate our methods we also present an experiment which compares the output of our method with physicianís observations captured via an eye-tracking device. The results show to be close to physicianís observations which point out a potentially inclusion of our methods as part of a future intelligent system for colonoscopy

    Concept discovery and argument bundles in the web of experiences /

    Get PDF
    Milions de persones interactuen i comparteixen informació cada dia a la Web. Des de converses intranscendents fins a comentaris sobre productes en tendes online, el contingut generat per les persones a la Web és enorme i divers. I entre aquests continguts n'hi ha un particularment interessant: les experiències. La gent escolta, llegeix i considera les experiències d'altri abans de prendre decisions, com per exemple comprar-se una càmera digital o anar de viatge a algun lloc exòtic. I quan aquestes experiències estan guardades a la Web, són accessibles per un gran nombre de persones. Malauradament, aquest contingut no és fàcilment accessible: Una persona interessada en anar-se'n de vacances a un hotel probablement llegirà unes quantes experiències d'altra gent que ha anat prèviament a aquest hotel per descobrir que n'opinen, però segurament no podrà llegir-les totes. D'aquesta manera ignorarà informació i experiències d'altra gent que li haurien estat profitoses de cara al seu viatge. Així doncs, considerem que hi ha una clara necessitat d'un anàlisis més profund d'aquesta informació continguda en les experiències de persones, per facilitar-ne el seu ús. El nostre enfocament es troba en el context de la Web de les Experiències, i es basa en extreure i adquirir coneixement pràctic d'experiències individuals respecte entitats del món real expressades en forma textual. A més a més, aquest coneixement han de ser tractat i representat de manera que permeti la seva reutilització per altres persones amb diferents interessos i preferències. Aquest procés està dividit en tres parts: Primer, extraiem les paraules més important utilitzades en les experiències de les diferents persones per descriure opinions sobre entitats. Seguidament, utilitzant el conjunt de paraules extretes, les agrupem en conceptes i creem un vocabulari de conceptes, que ens ajuda a descobrir els aspectes més importants de cada entitat segons les experiències viscudes per cada individu. Finalment, utilitzant el vocabulari de conceptes, creem els aplecs d'arguments de cada entitat. Els aplecs d'arguments caracteritzen els pros i els cons de cada entitat, i agreguen el coneixement pràctic extret de les experiències escrites per cada individu. A més amés, demostrem que els aplecs d'arguments, a part de ser útils per a representar el coneixement pràctic de les experiències, permeten fer inferència sobre quina entitat és la més adequada per cada individual, considerant el conjunt de preferències de cada individu. En aquesta tesi avaluem els aplecs d'arguments amb les puntuacions dels productes d'Amazon i les caracteritzacions de les càmeres de Dpreview, una web especialitzada en càmeres digitals. Demostrem com els arguments pro i con dels nostres aplecs d'arguments són molt semblants als presentats a Dpreview, fet que demostra la qualitat dels aplecs creats. Finalment, demostrem que les classificacions (rankings) de productes obtinguts amb la nostra implementació i els de Dpreview són molt semblants, mentre que la classificació donada per Amazon no s'assembla a cap de les altres dues.Millions of people interact and share interesting information every day in the Social Web. From daily conversations to comments about products in e-commerce sites, the content generated by people in these sites is huge and diverse. Among the wide diversity of user-contributed content on the web, there is a particular kind that has the potential of being put to good use by intelligent systems: human experiences. People very often use other people's experiences before making decisions, and when these kind of human experiences are expressed and recorded on the web, they can be shared with by large number of people. Nevertheless sometimes this content is not easily accessible, so a person trying to book a hotel may read a few reviews over a few hotels - but cannot possibly read them all. There is a clear need for an in-depth analysis of this kind of information, based on textual expressions of human particular experiences. Our approach, in the framework of the Web of Experiences, aims at acquiring practical knowledge from individual experiences with entities in the real world expressed in textual form. Moreover, this knowledge has to be represented in a way that facilitates the reuse of the experiential knowledge by other individuals with different preferences. Our approach has three stages: First, we extract the most salient set of aspects used by the individuals to describe their experiences with the entities in a domain. Second, using the set of extracted aspects, we group them in concepts to create a concept vocabulary that models the set of issues addressed in the reviews. Third, using the vocabulary of concepts, we create a bundle of arguments for each entity. An argument bundle characterizes the pros and cons of an entity, aggregating practical knowledge from judgments written by individuals with different biases and preferences. Moreover, we show how argument bundles allow us to define the notions of user query and the satisfaction degree of a bundle by a user query, proving that argument bundles are not only capable of representing practical knowledge but they are also useful to perform inference given a set of user preferences specified in a query. We evaluate the argument bundles of our approach with the Amazon score ratings and the camera characterizations of Dpreview. We show that pro and con arguments are very close to those listed in Dpreview. Evaluating entity rankings, we show that Dpreview and our approach give congruent rankings, while Amazon's is not congruent neither with Dpreview's or ours

    Contributions to the content-based image retrieval using pictorial queries

    Get PDF
    Descripció del recurs: el 02 de novembre de 2010L'accés massiu a les càmeres digitals, els ordinadors personals i a Internet, ha propiciat la creació de grans volums de dades en format digital. En aquest context, cada vegada adquireixen major rellevància totes aquelles eines dissenyades per organitzar la informació i facilitar la seva cerca. Les imatges són un cas particular de dades que requereixen tècniques específiques de descripció i indexació. L'àrea de la visió per computador encarregada de l'estudi d'aquestes tècniques rep el nom de Recuperació d'Imatges per Contingut, en anglès Content-Based Image Retrieval (CBIR). Els sistemes de CBIR no utilitzen descripcions basades en text sinó que es basen en característiques extretes de les pròpies imatges. En contrast a les més de 6000 llengües parlades en el món, les descripcions basades en característiques visuals representen una via d'expressió universal. La intensa recerca en el camp dels sistemes de CBIR s'ha aplicat en àrees de coneixement molt diverses. Així doncs s'han desenvolupat aplicacions de CBIR relacionades amb la medicina, la protecció de la propietat intel·lectual, el periodisme, el disseny gràfic, la cerca d'informació en Internet, la preservació dels patrimoni cultural, etc. Un dels punts importants d'una aplicació de CBIR resideix en el disseny de les funcions de l'usuari. L'usuari és l'encarregat de formular les consultes a partir de les quals es fa la cerca de les imatges. Nosaltres hem centrat l'atenció en aquells sistemes en què la consulta es formula a partir d'una representació pictòrica. Hem plantejat una taxonomia dels sistemes de consulta en composada per quatre paradigmes diferents: Consulta-segons-Selecció, Consulta-segons-Composició-Icònica, Consulta-segons-Esboç i Consulta-segons-Il·lustració. Cada paradigma incorpora un nivell diferent en el potencial expressiu de l'usuari. Des de la simple selecció d'una imatge, fins a la creació d'una il·lustració en color, l'usuari és qui pren el control de les dades d'entrada del sistema. Al llarg dels capítols d'aquesta tesi hem analitzat la influència que cada paradigma de consulta exerceix en els processos interns d'un sistema de CBIR. D'aquesta manera també hem proposat un conjunt de contribucions que hem exemplificat des d'un punt de vista pràctic mitjançant una aplicació final

    Foreground object segmentation and shadow detection for video sequences in uncontrolled environments

    Get PDF
    Descripció del recurs: el 20 de juny de 2011Aquesta tesis esta dividida en dos parts principalment. A la primera, es presenta un estudi dels problemes que es poden trobar en la segmentació per moviment, basant-se en aquest estudi es presenta un algoritme genèric el qual es capaç de solucionar d'una forma acurada la majoria dels problemes que es poden trobar en aquest tipus de segmentació. En la segona part, es tracta el tema de les ombres en profunditat. Primer, es presenta un algoritme bottom-up basat en un detector de ombres cromàtiques el qual es capaç no només de solucionar les ombres que es troben a la penombra, sinó també les ombres que podem trobar a l'umbra. Segon, es presenta un sistema topdown basat en un sistema de tracking per tal de trackejar les ombres i d'aquesta manera millorar la detecció de les ombres cromàtiques. En la nostra primera contribució, presentem un anàlisis del possibles problemes que trobem en la segmentació per moviment quan utilitzem el color, els gradients, o la intensitat. La nostra segona aportació es una arquitectura hibrida la qual pot solucionar els principals problemes observats en l'anàlisi, mitjançant la fusió de (i) la informació obtinguda per aquestes tres cues, i (ii) un algoritme de diferencia temporal. Per un costat, em aconseguit millorat els models de color i de gradients per que puguin solucionar tant el problemes amb els canvis de il·luminació global i local (com les ombres no cromàtiques) i els camuflatges en intensitat. A més a més, la informació local es explotada per tal de solucionar el problema dels camuflatges en croma. Per una altra banda, la intensitat es aplicada quan el color i els gradients no estan disponibles degut a problemes en la obtenció d'aquests (es troben fora del rang dinàmic). Addicionalment, la diferencia temporal es inclosa en la segmentació per moviment en el moment en que cap de les cues estudiades no estan disponibles, com per exemple quan el fons de la imatge no es visible en el període de entrenament. Per últim en aquesta primera part, el nostre algoritme també ha de solucionar el problema de les segmentacions fantasma. Com a resultat, el nostre algoritme obté una segmentació robusta i acurada tant en escenaris d'interior com d'exterior, tal i com s'ha demostrat tant quantitativament com qualitativament en els resultats experimentals, mitjançant la comparació del nostre algoritme amb els més coneguts algoritmes de l'estat de l'art. La segmentació en moviment té que tenir en compte el problema de les ombres per tal de evitar distorsions quan intentem segmentar els objectes en moviment. Però molts dels algoritmes que son capaços de detectar les ombres solament son capaços de detectar les ombres a la penombra. En conseqüència, aquestes tècniques no son capaces de detectar les ombres a l'umbra les quals son normalment detectades com part dels objectes en moviment. En aquesta tesis presentem primer una innovadora tècnica que es basa en els models de gradients i de color per tal de separar aquestes ombres cromàtiques dels objectes en moviment. Primerament, construïm tant un model de color en forma de con, com també un model de gradient els quals son invariant a les cromaticitats per tal d'aconseguir fer una segmentació automàtica a la vegada que totes les possibles ombres son detectades. En un segon pas, les regions que poden ser ombres son agrupades considerant "l'efecte blau" i les particions obtingudes mitjançant els gradients. Finalment, analitzem (i) les similituds temporals entre els les estructures locals dels gradients i (ii) les similituds espacials entre els angles cromàtics i les distorsions de la lluminositat de totes les ombres potencials per tal d'identificar les ombres a la umbra. Segon, en el procés top-down després de la detecció dels objectes i les ombres els dos son seguits usant un filtre de Kalman, per d'aquesta manera millorar la detecció de lesombrescromàtiques. Primerament, l'algoritme fa una associacióentre elsblobs (foreground i ombres) i els filtres de Kalman. Segon, es realitza un anàlisis dels possibles casos entre las associacions obtingudes anteriorment, i a més a més es tracten les oclusions mitjançant un Model Probabilístic d'Aparença. Basant-se en aquesta associació es busca la consistència temporal entre els foregrounds, les ombres, i els seus respectius filtres de Kalman. A partir d'aquesta nova associació son estudiats diferents casos, com a resultat les ombres cromàtiques que s'havien perdut son detectades. Finalment, els resultats son utilitzats com a feedback per millorar la detecciódela ombra i del objecte. Pel contrari que altres algoritmes el nostre mètode no fa cap assumpcióapriori sobre la localitzaciódelacàmera, les geometries o les textures de les superfícies, les formes o els possibles tipus de ombres, objectes o de fons de la imatge. Els resultats experimentals mostren la performance i la precisió del nostre algoritme en la detecció de les ombres cromàtiques en diferents materials i amb diferents condicions de il·luminació.This Thesis is mainly divided in two parts. The first one presents a study of motion segmentation problems. Based on this study, a novel algorithm for mobile-object segmentation from a static background scene is also presented. This approach is demonstrated robust and accurate under most of the common problems in motion segmentation. The second one tackles the problem of shadows in depth. Firstly, a bottom-up approach based on a chromatic shadow detector is presented to deal with umbra shadows. Secondly, a top-down approach based on a tracking system has been developed in order to enhance the chromatic shadow detection. In our first contribution, a case analysis of motion segmentation problems is presented by taking into account the problems associated with different cues, namely colour, edge and intensity. Our second contribution is a hybrid architecture which handles the main problems observed in such a case analysis, by fusing (i) the knowledge from these three cues and (ii) a temporal difference algorithm. On the one hand, we enhance the colour and edge models to solve both global/local illumination changes (shadows and highlights) and camouflage in intensity. In addition, local information is exploited to cope with a very challenging problem such as the camouflage in chroma. On the other hand, the intensity cue is also applied when colour and edge cues are not available, such as when beyond the dynamic range. Additionally, temporal difference is included to segment motion when these three cues are not available, such as that background not visible during the training period. Lastly, the approach is enhanced for allowing ghost detection. As a result, our approach obtains very accurate and ro¬bust motion segmentation in both indoor and outdoor scenarios, as quantitatively and qualitatively demonstrated in the experimental results, by comparing our approach with most best-known state-of-the-art approaches. Motion Segmentation has to deal with shadows to avoid distortions when detecting moving objects. Most segmentation approaches dealing with shadow detection are typically restricted to penumbra shadows. Therefore, such techniques cannot cope well with umbra shadows. Consequently, umbra shadows are usually detected as part of moving objects. Firstly, a bottom-up approach for detection and removal of chromatic moving shadows in surveillance scenarios is proposed. Secondly, a top-down approach based on kalman filters to detect and track shadows has been developed in order to enhance the chromatic shadow detection. In the Bottom-up part, the shadow detection approach applies a novel technique based on gradient and colour models for separating chromatic moving shadows from moving objects. Well-known colour and gradient models are extended and improved into an invariant colour cone model and an invariant gradient model, respectively, to perform automatic segmentation while detecting potential shadows. Hereafter, the regions corresponding to potential shadows are grouped by considering "a bluish effect" and an edge partitioning. Lastly, (i) temporal similarities between local gradient structures and (ii) spatial similarities between chrominance angle and brightness distortions are analysed for all potential shadow regions in order to finally identify umbra shadows. In the top-down process, after detection of objects and shadows both are tracked using Kalman filters, in order to enhance the chromatic shadow detection, when it fails to detect a shadow. Firstly, this implies a data association between the blobs (foreground and shadow) and Kalman filters. Secondly, an event analysis of the different data association cases is performed, and occlusion handling is managed by a Probabilistic Appearance Model (PAM). Based on this association, temporal consistency is looked for the association between foregrounds and shadows and their respective Kalman Filters. From this association several cases are studied, as a result lost chromatic shadows are correctly detected. Finally, the tracking results are used as feedback to improve the shadow and object detection. Unlike other approaches, our method does not make any a-priori assumptions about camera location, surface geometries, surface textures, shapes and types of shadows, objects, and background. Experimental results show the performance and accuracy of our approach in different shadowed materials and illumination conditions

    Modeling, estimation and evaluation of intrinsic images considering color information

    Get PDF
    Els valors dels píxels de les imatges són el resultat d'una combinació d'informacions visuals provinents de múltiples fonts. Recuperar la informació dels múltiples factors que han produït una imatge sembla un problema molt difícil. Tanmateix, és important fixar-se que els éssers humans desenvolupem l'habilitat d'interpretar les imatges i de reconèixer i aïllar determinades propietats físiques de l'escena. Les imatges que descriuen una sola característica física d'una escena s'anomenen imatges intrínseques. Aquestes imatges serien molt útils per la majoria de processos de la visió per computador, que sovint es veuen afectats pels diversos efectes que normalment trobem en les imatges naturals (ombres, especularitats, interreflexions, etc.) En aquesta tesi s'analitza el problema de l'estimació d'imatges intrínseques des de diferents punts de vista, com per exemple la formulació teòrica del problema, les cues visuals que poden ser útils per a estimar certes imatges intrínseques o els mecanismes d'avaluació del problema. Primer introduïm breument l'origen del problema de l'estimació d'imatges intrínseques i també parlem del seu context i d'alguns temes relacionats. Llavors, presentem una revisió exhaustiva de la bibliografia d'imatges intrínseques en el camp de la visió per computador, proporcionant una descripció detallada i organitzada de les tècniques per a l'estimació d'imatges intrínseques que han aparegut fins ara. D'altra banda, també examinem els mecanismes d'avaluació d'imatges intrínseques que s'han utilitzat fins ara, estudiant les bases de dades i les mètriques existents. A més a més, analitzem l'evolució del problema i identifiquem les tendències actuals d'aquest camp de recerca. Sovint, en el camp de la visió per computador, la informació del color ha estat ignorada. Tanmateix, el color ha resultat ser molt útil en l'estimació d'imatges intrínseques. En aquest treball presentem un mètode de descomposició d'imatges intrínseques que estima la reflectància i el shading d'una imatge utilitzant observacions de dos atributs de color que es combinen en un marc probabilístic. D'altra banda, la majoria dels mètodes de descomposició d'imatges intrínseques fins ara han assumit que les escenes estan il·luminades per una ''llum blanca'' i han ignorat completament els efectes dels sensors de la càmera en les imatges. Tots dos factors, però, afecten els valors de les imatges resultants durant el procés d'adquisició. En aquest treball analitzem la formulació teòrica del problema de descomposició d'imatges intrínseques i proposem un nou marc, més general, on es modelitzen els efectes tant dels sensors de la càmera com del color de l'il·luminant. En aquesta nova formulació hi introduïm un nou component, anomenat reflectància absoluta, que és invariant a tots dos efectes. A més a més, demostrem que qualsevol coneixement sobre el color de l'il·luminant o sobre els sensors de la càmera es pot utilitzar per millorar les reflectàncies estimades dels diferents mètodes de descomposició d'imatges intrínseques. Finalment, analitzem els mecanismes d'avaluació d'imatges intrínseques, que han evolucionat constantment durant aquesta última dècada. En aquesta tesi presentem dues bases de dades per a l'avaluació d'imatges intrínseques. Una d'elles és una base de dades calibrada que inclou informació sobre l'il·luminant de l'escena i els sensors de la càmera. Aquesta base de dades s'ha utilitzat per validar experimentalment el marc teòric per a la descomposició d'imatges intrínseques presentat en aquesta tesi. La segona base de dades s'ha construït mitjançant tècniques de gràfics per computador i conté imatges, tant d'objectes simples com d'escenes complexes, adquirides amb diferents condicions d'il·luminació. En aquest treball es demostra que amb programari de gràfics per computador i motors de representació gràfica, és possible construir bases de dades molt grans i realistes per a l'avaluació d'imatges intrínseques.Image values are the result of a combination of visual information coming from multiple sources. Recovering information from the multiple factors that produced an image seems a hard and ill-posed problem. However, it is important to observe that human beings develop the ability to interpret images and recognize and isolate specific physical properties of the scene. Images describing a single physical characteristic of an scene are called intrinsic images. These images would benefit most computer vision tasks which are often affected by the multiple complex effects that are usually found in natural images (cast shadows, specularities, interreflections...). In this thesis we will analyze the problem of intrinsic image estimation from different perspectives, including the theoretical formulation of the problem, the visual cues that can be used to estimate the intrinsic components and the evaluation mechanisms of the problem. We first give a brief introduction on the background and the nature of the problem of intrinsic image estimation and some of its closely related topics. Then, we present an exhaustive review of the literature of intrinsic images in the field of computer vision, giving a comprehensive and organized description of the existing techniques for intrinsic image estimation. We also examine the evaluation mechanisms that have been used so far in this problem. We analyze the existing databases and metrics, discuss the evolution of the problem and identify the recent trends in the field. Color information has been frequently ignored in the field of computer vision. In this work we present a method for intrinsic image decomposition which estimates the intrinsic reflectance and shading components of a single input image using observations from two different color attributes combined in a probabilistic framework. One of them, based on the semantic description of color used by humans, provides a sparse description of reflectances in an image. The other, based on an analysis of color distributions in the histogram space which connects local maxima, gives us a consistent description of surfaces sharing the same reflectance, providing stability of color-names in shadowed or near highlight regions of the image. Moreover, most methods for intrinsic image decomposition have usually assumed ''white light'' in the scenes and have completely ignored the effect of camera sensors in images. However, both factors strongly influence the resulting image values during the acquisition process. In this work we analyze the theoretical formulation underlying the decomposition problem and propose a generalized framework where we model the effects of both the camera sensors and the color of the illuminant. In this novel formulation we introduce a new reflectance component, called absolute reflectance, which is invariant to both effects. Furthermore, we demonstrate that any knowledge of the color of the illuminant or the camera sensors from input images can be used to improve the reflectance estimates of different existing methods for intrinsic image decomposition. Finally, we analyze the evaluation mechanisms of intrinsic images, which have continuously evolved during the last decade. In this thesis we present two datasets for intrinsic image evaluation. One is a calibrated dataset which includes ground truth information about the illuminant of the scene and the camera sensors. This dataset is used in this work to experimentally validate the theoretical framework for intrinsic image decomposition proposed in this thesis. The second dataset uses synthetic data and contains both simple objects and complex scenes under different illumination conditions. In this work we demonstrate that it is possible to build large and realistic datasets for intrinsic image evaluation using computer graphics software and rendering engines

    Contextual word spotting in historical handwritten documents

    Get PDF
    Existen incontables colecciones de documentos históricos en archivos y librerías repletos de valiosa información para historiadores e investigadores. La extracción de esta información se ha convertido en una de las principales tareas para investigadores del área de análisis de documentos. Hay un interés creciente en digitalizar, conservar y dar acceso a este tipo de documentos. Pero sólo la digitalización no es suficiente para los investigadores. La extracción y/o indexación de la información de estos documentos tiene un creciente interés entre los investigadores. En muchos casos, y en particular en documentos históricos, la completa trascripción de estos documentos es extremadamente difícil debido a dificultades intrínsecas: preservación física pobre, diferentes estilos de escritura, lenguajes obsoletos, etc. La búsqueda de palabras se convierte en una popular y eficiente alternativa a la tran-scripción completa. Este método conlleva una inherente degradación de las imágenes. La búsqueda de palabras se formula holísticamente como una búsqueda visual de una forma dada en un conjunto grande de imágenes, en vez de reconocer el texto y buscar la palabra mediante la comparación de códigos ascii. Pero el rendimiento de los métodos de búsqueda de palabras clásicos puede verse afectado por el nivel de degradación de las imágenes, que en algunos casos pueden ser inaceptables. Por esta razón, proponemos una búsqueda de palabras contextual que utiliza la información contextual/semántica para obtener resultados donde los métodos de búsqueda clásica no lo logran un rendimiento aceptable. El sistema de búsqueda de palabras contextual propuesto en esta tesis utiliza un método de búsqueda de palabras basado en segmentación, y por tanto es necesaria una segmentación de palabras precisa. Documentos históricos manuscritos presentan algunas dificultades que pueden dificultar la extracción de palabras. Proponemos un método de segmentación de palabras que formula el problema como la búsqueda del camino central en el area que hay entre dos líneas consecutivas. Esto se resuelve mediante un problema de grafo transversal. Un algoritmo de búsqueda de caminos es utilizado para encontrar el camino óptimo en el grafo, calculado previamente, entre dos líneas de texto. Una vez las líneas se han extraído, las palabras son localizadas dentro de las líneas de texto utilizando un método del estado del arte para segmentar palabras. Los métodos de búsqueda clásicos pueden mejor utilizando la información contextual de los documentos. Presentamos un nuevo sistema, orientado a documentos manuscritos que presentan una estructura a los largo de sus páginas, para extraer la información uti-lizando información contextual. El sistema es una eficiente herramienta para la transcripción semiautomática que utiliza la información contextual para obtener mejores resultados que los métodos de búsqueda convencionales. La información contextual es descubierta automáticamente reconociendo estructuras repetitivas y categorizando las palabras con su correspondiente clase semántica. Se extraen las palabras más frecuentes de cada clase semántica y así el mismo texto es utilizado para transcribir todas ellas. Los resultados experimentales obtenidos en esta tesis mejoran los resultados de los métodos clásicos de búsqueda de palabras, demostrando idoneidad de la arquitectura propuesta para la búsqueda de palabras en documentos históricos manuscritos utilizando la información contextual.There are countless collections of historical documents in archives and libraries that contain plenty of valuable information for historians and researchers. The extraction of this information has become a central task among the Document Analysis researches and practitioners. There is an increasing interest to digital preserve and provide access to these kind of documents. But only the digitalization is not enough for the researchers. The extraction and/or indexation of information of this documents has had an increased interest among researchers. In many cases, and in particular in historical manuscripts, the full transcription of these documents is extremely di cult due the inherent de ciencies: poor physical preservation, di erent writing styles, obsolete languages, etc. Word spotting has become a popular an e cient alternative to full transcription. It inherently involves a high level of degradation in the images. The search of words is holistically formulated as a visual search of a given query shape in a larger image, instead of recognising the input text and searching the query word with an ascii string comparison. But the performance of classical word spotting approaches depend on the degradation level of the images being unacceptable in many cases . In this thesis we have proposed a novel paradigm called contextual word spotting method that uses the contextual/semantic information to achieve acceptable results whereas classical word spotting does not reach. The contextual word spotting framework proposed in this thesis is a segmentation-based word spotting approach, so an e cient word segmentation is needed. Historical handwritten documents present some common di culties that can increase the di culties the extraction of the words. We have proposed a line segmentation approach that formulates the problem as nding the central part path in the area between two consecutive lines. This is solved as a graph traversal problem. A path nding algorithm is used to nd the optimal path in a graph, previously computed, between the text lines. Once the text lines are extracted, words are localized inside the text lines using a word segmentation technique from the state of the art. Classical word spotting approaches can be improved using the contextual information of the documents. We have introduced a new framework, oriented to handwritten documents that present a highly structure, to extract information making use of context. The framework is an e cient tool for semi-automatic transcription that uses the contextual information to achieve better results than classical word spotting approaches. The contextual information is automatically discovered by recognizing repetitive structures and categorizing all the words according to semantic classes. The most frequent words in each semantic cluster are extracted and the same text is used to transcribe all them. The experimental results achieved in this thesis outperform classical word spotting approaches demonstrating the suitability of the proposed ensemble architecture for spotting words in historical handwritten documents using contextual information

    Relational models for visual understanding of graphical documents. Application to architectural drawings

    Get PDF
    Els documents gráfics són documents que expressen continguts semántics utilitzant majoritáriament un llenguatge visual. Aquest llenguatge está format per un vocabulari (símbols) i una sintaxi (relacions estructurals entre els símbols) que conjuntament manifesten certs conceptes en un context determinat. Per tant, la interpretació dun document gráfic per part dun ordinador implica tres fases. (1) Ha de ser capadçe detectar automáticament els símbols del document. (2) Ha de ser capadç extreure les relacions estructurals entre aquests símbols. I (3), ha de tenir un model del domini per tal poder extreure la semántica. Exemples de documents gráfics de diferents dominis són els planells darquitectural i d'enginyeria, mapes, diagrames de flux, etc. El Reconeixement de Gráfics, dintre de lárea de recerca de Análisi de Documents, neix de la necessitat de la indústria dinterpretar la gran quantitat de documents gráfics digitalitzats a partir de laparició de lescáner. Tot i que molts anys han passat daquests inicis, el problema de la interpretació automática de documents sembla encara estar lluny de ser solucionat. Básicament, aquest procés sha alentit per una raó principal: la majoria dels sistemes dinterpretació que han estat presentats per la comunitat són molt centrats en una problemática específica, en el que el domini del document marca clarament la implementació del mètode. Per tant, aquests mètodes són difícils de ser reutilitzats en daltres dades i marcs daplicació, estancant així la seva adopció i evolució en favor del progrés. En aquesta tesi afrontem el problema de la interpretació automática de documents gráfics a partir dun seguit de models relacionals que treballen a tots els nivells del problema, i que han estat dissenyats des dun punt de vista genèric per tal de que puguin ser adaptats a diferents dominis. Per una part, presentem 3 mètodes diferents per a lextracció dels símbols en un document. El primer tracta el problema des dun punt de vista estructural, en el que el coneixement general de lestructura dels símbols permet trobar-los independentment de la seva aparença. El segon és un mètode estad ístic que aprèn laparença dels símbols automáticament i que, per tant, sadapta a la gran variabilitat del problema. Finalment, el tercer mètode és una combinació dambdós, heretant els beneficis de cadascun dels mètodes. Aquesta tercera implementaci ó no necessita de un aprenentatge previ i a més sadapta fácilment a múltiples notacions gráfiques. D'altra banda, presentem dos mètodes per a la extracció del context visuals. El primer mètode segueix una estratègia bottom-up que cerca les relacions estructurals en una representació de graf mitjançant algorismes dintel_ligència artificial. La segona en canvi, és un mètode basat en una gramática que mitjançant un model probabilístic aprèn automáticament lestructura dels planells. Aquest model guia la interpretació del document amb certa independència de la implementació algorísmica. Finalment, hem definit una base del coneixement fent confluir una definició ontol'ogica del domini amb dades reals. Aquest model ens permet raonar les dades des dun punt de vista contextual i trobar inconsistències semántiques entre les dades. Leficiència daquetes contribucions han estat provades en la interpretació de planells darquitectura. Aquest documents no tenen un estándard establert i la seva notació gráfica i inclusió dinformació varia de planell a planell. Per tant, és un marc rellevant del problema de reconeixement gráfic. A més, per tal de promoure la recerca en termes de interpretació de documents gráfics, fem públics tant les dades, leina per generar les dades i els evaluadors del rendiment.Graphical documents express complex concepts using a visual language. This language consists of a vocabulary (symbols) and a syntax (structural relations among symbols) that articulate a semantic meaning in a certain context. Therefore, the automatic interpretation of these sort of documents by computers entails three main steps: the detection of the symbols, the extraction of the structural relations among these symbols, and the modeling of the knowledge that permits the extraction of the semantics. Different domains in graphical documents include: architectural and engineering drawings, maps, flowcharts, etc. Graphics Recognition in particular and Document Image Analysis in general are born from the industrial need of interpreting a massive amount of digitalized documents after the emergence of the scanner. Although many years have passed, the graphical document understanding problem still seems to be far from being solved. The main reason is that the vast majority of the systems in the literature focus on a very specific problems, where the domain of the document dictates the implementation of the interpretation. As a result, it is difficult to reuse these strategies on different data and on different contexts, hindering thus the natural progress in the field. In this thesis, we face the graphical document understanding problem by proposing several relational models at different levels that are designed from a generic perspective. Firstly, we introduce three different strategies for the detection of symbols. The first method tackles the problem structurally, wherein general knowledge of the domain guides the detection. The second is a statistical method that learns the graphical appearance of the symbols and easily adapts to the big variability of the problem. The third method is a combination of the previous two inheriting their respective strengths, i.e. copes the big variability and does not need of annotated data. Secondly, we present two relational strategies that tackle the problem of the visual context extraction. The first one is a full bottom up method that heuristically searches in a graph representation the contextual relations among symbols. Contrarily, the second is syntactic method that models probabilistically the structure of the documents. It automatically learns the model, which guides the inference algorithm to counter the best structural representation for a given input. Finally, we construct a knowledge-based model consisting of an ontological definition of the domain and real data. This model permits to perform contextual reasoning and to detect semantic inconsistencies within the data. We evaluate the suitability of the proposed contributions in the framework of floor plan interpretation. Since there is no standard in the modeling of these documents, there exists an enormous notation variability and the sort of information included in the documents also varies from plan to plan. Therefore, floor plan understanding is a relevant task in the graphical document understanding problem. It is also worth to mention that, we make freely available all the resources used in this thesis (the data, the tool used to generate the data, and the evaluation scripts) aiming at fostering the research in graphical document understanding task
    corecore